強化学習 Reinforcement Learning
エージェント
が
環境 environment
を観察し、それに基づき行動
環境が変化し、エージェントに報酬を与えられる
エージェントはより報酬を与えられるように、良い行動をするように学習
現在の状態を観測し、取るべき行動を決定する問題を扱う
教師から完全な答えを提示されない